مجلد 11 شماره 1 مقاله عادي ايران. Q-Learning كليدي: چندعامله. مدلهاي تصادفي يادگيري بازيهاي درباره بالايي الگوريتم

علوم و مهندسي كامپيوتر ايران نشريه علمي پژوهشي انجمن كامپيوتر مجلد شماره صفحات 62-56 مقاله عادي ( 392 فلا( افزايش مبتني بر مورد براي استدلال تلفيقي مبتني بر يادگيري تقويتي و مدل يك كارايي سيستمهاي چندعامله محمدرضا ميبدي 2 بهروز معصومي سارا اسفندياري 2 آزاد اسلامي واحد قزوين قزوين ايران مهندسي كامپيوتر و فناوري اطلاعات دانشگاه دانشكده فناوري اطلاعات دانشگاه صنعتي اميركبير تهران ايران دانشكده مهندسي كامپيوتر و چكيده چندعامله اراي ه شده است. در روش پيشنهادي مدل تلفيقي مقاله روشي با استفاده از استدلال مبتني بر مورد براي افزايش سرعت الگوريتمهاي يادگيري تقويتي در سيستمهاي در اين شده كه موجب تسريع درالگوريتمهاي مبتني بر Q-Learnng پيشنهاد شده است بهبوديافتهي جديد براي انتخاب عمل بر مورد و يك تابع جديد با استفاده از سيستمهاي استدلال مبتني ماركوف همكارانه به عنوان يكي از مدلهاي سيستمهاي چندعامله مبتني بر ماركوف استفاده شده است. نتايج بدست آمده از آزمايشها نشان حل مسي له بازيهاي است. روش مذكور براي ميدهند كه روش پيشنهادي اراي ه شده نرخ همگرايي و سرعت يادگيري را افزايش ميدهد. چندعامله. الگوريتم Q-Learnng بازيهاي ماركوف توزيع بولتزمن سيستمهاي استدلال مبتني بر مورد سيستمهاي كليدي: كلمات مرحلهي زماني به عامل اجازه ميدهند تقويتي در هر الگوريتمهاي يادگيري خود از محيط يك عمل را انجام دهد و به حالت جديدي كه بر اساس مشاهدات شده عمل انتخاب وارد شود سپس يك سيگنال پاداش كه نشاندهندهي كيفيت عامل داده ميشود [3]. تاكنون براي مدلسازي سيستمهاي چندعامله است به چند گيري ماركوف فرآيند تصميم مختلفي پيشنهاد شده است مدل مدلهاي 3 اين مدلها است [4]. اين مدل توسعهاي از فرآيندهاي عامله (MMDP) يكي از تقويتي بسياري به عامل بوده و در تحقيقات يادگيري ماركوف با چندين تصادفي آوردن راهحل بهينه در بازيهاي ماركوفي الگوريتمهاي كار رفتهاند. براي بدست حل بهكار رفته است. هو و ولمن الگوريتمي براي تقويتي مختلفي يادگيري ماركوف كلي اراي ه دادند. آنها الگوريتمي به نام Nash-Q را پيشنهاد دادند بازيهاي و سياست تعادل نش همگرا ميشود [5]. معصومي شرايط خاص به كه تحت حل بازيهاي ماركوف همكارانه اراي ه در سال 202 الگوريتمي براي همكاران كه از اتوماتاي يادگير و مفهوم آنتروپي استفاده ميكرد كردند [6]. در سال 2000 - ممقدمه حل مساله مبتني بر دانش است كه بر مورد (CBR) يك روش استدلال مبتني بر پايه استفاده مجدد از تجربيات پيشين عمل ميكند و از تحقيقات علوم شناختي بر اين است مساي ل مشابه ميتوانند در اين روش فرض پديدار شده است []. راهحلهاي مشابهي داشته باشند. بنابراين ممكن است مساي ل جديد با روشهاي شامل شده در مساي ل قبلي قابل حل باشند. يك سيستم چندعامله تجربه Dstrbuted براي عاملهاي مستقل معرفي شده است. Q-Learnng الگوريتم 2 يك به طور جداگانه با هوشمند و خودمختار است كه هر مجموعهاي از عامله يا محيطي اشتراكي در ارتباط هستند تا بتوانند به هدف مشخصي برسند. با توجه به كه عاملها در سيستمهاي چند عامله با مسي له كمبود يا فقدان اطلاعات اين دربارهي محيط وجود ندارد و معمولا محيط مواجه هستند و دانش كاملي درباره نيز ناشناخته است استفاده از الگوريتمهاي يادگيري تقويتي از اهميت محيط برخوردار است [2]. بالايي

57 س. اسفندياري ب. معصومي و م. ر. ميبدي: يك مدل تلفيقي مبتني بر يادگيري تقويتي و استدلال مبتني... (مقاله عادي) ثابت شده است كه اين الگوريتم به سمت تعادل نش همگرا ميشود با اينحال در اين الگوريتم از هيچگونه مكانيزم هماهنگي بين عاملها استفاده نشده است [7]. در سال 2004 الگوريتمي به نام FMQ معرفي شده است كه مقادير Q هر عمل در استراتژي توزيع بولتزمن را توسط يك تابع ابتكاري تغيير ميدهد و بدين ترتيب باعث همگرايي زودتر به سمت پاسخ بهينه ميشود [8]. در [9] الگوريتمي به نام Hysteretc Q-Learnng معرفي شده است كه با اضافه كردن پارامتر جديدي به روش FMQ باعث بهبود عملكرد اين الگوريتم شده است. در [0] الگوريتمي به نام CAQL كه براساس الگوريتم Q-Learnng عمل ميكند معرفي شده است. در [] يك روش مبتني بر الگوريتم Q-Learnng مطرح شده است. يكي از راههاي افزايش سرعت الگوريتمهاي يادگيري تقويتي بهبود تابع انتخاب عمل است. در [2 3] نمونههايي از اين توابع به صورت مكاشفه اي اراي ه شدهاند. اين توابع براي انتخاب عمل در هر حالت به كار برده شدهاند. با وجود اينكه اين روشها به صورت موفقيتآميزي براي حل بازيهاي ماركوف مورد استفاده قرار گرفتهاند ولي هنوز مسي لهي استفادهي مجدد از تجربيات قبلي عاملها در حل مساي ل جديد در اين روشها ناديده گرفته شده است. از آنجاييكه در سيستمهاي چندعامله محيط ناشناخته است و عامل بايستي از طريق مشاهده دانش خود را دربارهي محيط افزايش دهد بنابراين مسي لهي حفظ و استفادهي مجدد از دانش كسب شدهي قبلي موجب افزايش سرعت يادگيري ميشود. در اين مقاله به منظور افزايش سرعت يادگيري سياست بهينه براي بازيهاي ماركوف در حالت عاملهاي مستقل يك روش تلفيقي جديد به نام CB-BHAQL 4 پيشنهاد ميشود. كه در آن از يك تابع بهبود يافته براي انتخاب عمل و تكنيك استدلال مبتني بر مورد به عنوان ابزاري براي افزايش سرعت يادگيري استفاده شده است. نتايج شبيهسازيهاي انجام شده بر روي محيط Grd World نشان ميدهند كه الگوريتم پيشنهادي نسبت به روشهاي موجود كارايي بهتري از نظر سرعت دارد. در ادامه مقاله ابتدا در بخش 2 مفاهيم اوليه و در بخش 3 روش پيشنهادي شرح داده ميشود و در بخش 4 ارزيابي الگوريتم اراي ه شده ودر بخش 5 بررسي رفتار الگوريتم و تحليل آن و بخش 6 نتيجهگيري است. 2- مفاهيم اوليه -2- يادگيري تقويتي يك عامل يادگير تقويتي رفتارش را از طريق تعامل با يك محيط ناشناخته و مشاهدهي نتايج اعمالش تعيين ميكند [5]. ايدهي يادگيري تقويتي در شكل آمده است. در شكل ابتدا عامل حالت فعلي سيستم (S) را دريافت ميكند. با استفاده از يك تابع تصميم ساز (Polcy) عمل a مشخص ميشود و عامل پس از اعمال عمل a بر روي محيط پاداش r را دريافت ميكند. سپس با استفاده از مقادير a و s و r مقدار تابع يادگير تقويتي توسط تابع ارزيابي به روزرساني ميشود. الگوريتمهاي يادگيري تقويتي سعي ميكنند كه سياستهايي را براي نگاشت حالتها به عملهايي كه هر عامل بايد در آن حالت انجام دهد پيدا كنند. در الگوريتمهاي يادگيري تقويتي معمولا محيط 5 ماركوف (MDP) S, A, T, r مدل ميشود. به صورت يك فرآيند تصادفي يك MDP يك چهارتايي به صورت است كه در آن S مجموعه متناهي از حالات و A مجموعهاي از عمليات قابل دسترس براي عامل و A S[0,] T:S تابع انتقال از حالت فعلي به حالت بعدي و :r S A R تابع پاداش است. هدف پيدا كردن سياستي به صورت : SA است به گونهاي كه ميانگين پاداش دريافتي در طول زمان بيشينه گردد. براي هر خط مشي نظير π كه عامل ميتواند دنبال كند بر 6 ا روي وضعيتها تابعي به نام تابع ارزيابي تعريف ميشود. الگوريتم Q-Learnng يكي از تكنيكهايي است كه براي تابع ارزيابي استفاده ميشود. شبه كد الگوريتم Q-Learnng در شكل 2 آمده است. در اين الگوريتمها براي هر عمل a در هر حالت S از مقدار ارزش آن عمل Q(s,a) مطابق رابطه استفاده ميشود. در رابطه α نرخ يادگيري و [ [0, فاكتور كاهش است. الگوريتم هنگامي به پايان ميرسد كه سياست بهينه براي مدت زمان معيني تغيير نكند.,,, () (2) معمولا براي انتخاب عمل در هر حالت (قسمت (Polcy از روش توزيع بولتزمن (رابطهي 2) استفاده ميشود.,, كه در آن m تعداد اعمال مجاز براي حالت S و ثابت است و Q(S,a) مقدار تابع ارزيابي حالت S را هنگامي كه عمل a انجام ميگيرد نشان ميدهد. در كاربردهاي واقعي تعيين مقدار دقيق براي همگرا شدن به سياست بهينه كار مشكلي است از اين رو در اين مقاله براي انتخاب عمل در هر حالت رابطهي 3 پيشنهاد شده است. در رابطهي 3 m تعداد اعمال مجاز براي حالت S و( n(s,a تعداد دفعاتي است كه تاكنون عمل a انتخاب شده است و Q(S,a) مقدار تابع ارزيابي حالت S را هنگامي كه عمل a انجام ميگيرد نشان ميدهد.,,,, Intalze Q t ( S, a) arbtrarly Repeat for each epsode Intalze S randomly Repeat for each step Select an acton usng EQ (2) Execute the acton a, observe rs, a, new state S Update the Value of Q t ( S, a) accordng to EQ () S S ' Untl S s thetermnal state Untl Some Stoppng Crteron Crtera s reached. (3) شكل 2- الگوريتم Q-Lernng 2-2- بازيهاي ماركوف شكل - مدل يادگيري تقويتي بازي ماركوف تعميم يافته مسي له تصميمگيري ماركوف (MDP) به حالت

فلا( 58 392 ( علوم و مهندسي كامپيوتر نشريه علمي پژوهشي انجمن كامپيوتر ايران مجلد شماره چندعامله است. يكي از محيط هاي استفاده شده براي بازيهاي ماركوف Q به كاررفته در آن است و هميشه مسي لهي استفاده مجدد از يادگيري هاي قبلي چندعامله بازي Grd World است كه در [5] معرفي شده است. در اين بازي دو عامل مستقل از مراحل رديف پايين شروع به بازي ميكنند و سعي ميكنند كه سلول هدفشان را در مراحل بالايي پيدا كنند. يك عامل فقط ميتواند در يك لحظه به داخل يك سلول حركت كند. چهار عمل ممكن براي هر عامل وجود دارد: - بالا پايين چپ راست. اگر دو عامل سعي كنند كه به خانههاي يكساني وارد شوند بجز حالت هدف به سلول قبلي خود بازگشت خورده و هر دو عامل واحد جريمه ميشوند. به محض اينكه يكي از عاملها به حالت هدف رسيد بازي به پايان ميرسد و عاملي كه به حالت هدف رسيده است دريافت ميكند. 00+ واحد پاداش هدف يك عامل اين است كه با مينيمم تعداد حركات بتواند به حالت هدف برسد. يك سياست (استراتژي) دنبالهي اعمال انجام گرفته از حالت شروع به حالت پايان است. كوتاهترين مسيري كه اجازه دهد تا يك عامل بتواند هر چه زودتر به هدف برسد يك استراتژي بهينه است. شكل استراتژي بهينه در شكل 3 شامل 9 حركت است. 3-2- استدلال مبتني بر مورد شكل 3- نمونهاي از بازي Grd World 3 نمونهاي از اين بازي است. تكنيك استدلال مبتني برمورد (CBR) از تجربيات بدست آمدهي قبلي (Case) براي حل مساي ل جديد استفاده ميكند. در سيستمهاي استدلال مبتني بر مورد 7 تجربيات بدست آمده از حل مساي ل درون پايگاه موارد (CB) ذخيره ميشود. در C new از اين سيستمها براي حل مسي له جديد ) C ( شبيهترين موارد به new درون پايگاه موارد (CB) استخراج ميشود و از راهحلهاي اراي ه شده توسط موارد استخراجي براي حل مسي له جديد استفاده ميشود. اگر مورد مشابهي C new C new به عنوان مورد جديد وارد پايگاه موارد ميشود []. برخلاف يافت نشد تكنيكهاي سنتي مبتني بر دانش CBR بر روي تجربه حل مساله خاصي تمركز ميكند كه برگرفته از موارد جمعآوري شده در پايگاه مورد است. اين موارد تجربه خاصي را در يك دامنه حل مساله نشان ميدهند. بايد توجه داشت كه CBR يك راهحل قطعي را پيشنهاد نميكند بلكه فرضيات و نظراتي را براي عبور از فضاي راهحل اراي ه ميكند. - 3 روش پيشنهادي در اين بخش يك روش جديد (الگوريتم) به منظور افزايش سرعت همگرايي در بازيهاي ماركوف موسوم به CB-BHAQL اراي ه شده است. در الگوريتم پيشنهادي از استدلال مبتني بر مورد و نيز تابع جديدي براي انتخاب عمل در هر حالت به منظور افزايش سرعت همگرايي به سمت سياست بهينه استفاده شده است. در اكثر الگوريتمهاي اراي ه شده براي يادگيري تقويتي كه از روش يادگيري عاملها ناديده گرفته شده است. به نظر مي آيد اگر در هر بار تكرار الگوريتم دانش يادگرفته شدهي عامل از محيط (مقدار Q) در جايي حفظ شود و از آن براي ادامه فرآيند يادگيري استفاده شود سرعت يادگيري الگوريتم نيز افزايش پيدا مي كند از اينرو در اين مقاله الگوريتم يادگيري Q با مدل استدلال مبتني بر مورد تلفيق شده است. حل يك مسي له با استدلال مبتني بر مورد شامل مراحل: ايجاد توصيفي از مسي له اندازهگيري ميزان شباهت مسي له كنوني با مساي ل قبلي حل شده ذخيره شده در پايگاه موارد بازيابي يك يا چندين مسي له مشابه از داخل پايگاه موارد سعي براي استفاده مجدد از راهحل اراي ه شده توسط موارد بازيابي شده براي حل مسي له كنوني ميباشد. ساختار موارد استفاده شده در الگوريتم پيشنهادي يك دو تايي به صورت Case=<Prob,Sol> است كه Prob توصيف كننده مسي له و Sol راهحل اراي ه شده براي مسي له است. توصيف كننده مسي له (Prob) حاوي مشخصات هر حالت است كه به صورت{ ndex Prob(S)={m, <Up, Down, Rght, Left>, تعريف مي شود M تعداد اعمال هر حالت و مجموعهي Rght,Left> <Up, Down, اعمال مجاز براي هر حالت و ndex انديس هر حالت است. راهحل اراي ه شده براي است كه در آن بردار E به صورت مسي له Sol ( S ) E, V E ( E [], E [2 ],..., E [ m ]) توسط عامل براي حالت S بوده e a, n, Q, دفعاتي كه عمل است كه ليستي از تجربيات جمعآوري شده از محيط E شامل يك چهارتايي و هر بردار a عمل مجاز براي حالت S و n a بروزرساني شده است و Q تعداد مقدار تخمين زده شده توسط a كه توسط رابطهي 3 تخمين زده رابطهي و احتمال وقوع عمل ميشود. V مجوز استفاده از راهحل اراي ه شده توسط مورد بازيابي شده است و اگر هر يك از اعمال حالت S حداقل يك بار انتخاب شده باشند است. در اينصورت از راهحل مورد بازيابي شده براي حل مسي له جديد ميتوان استفاده كرد. در الگوريتم پيشنهادي هر بار كه عامل وارد حالت جديدي ميشود مشابهترين مورد به حالت جديد را از درون پايگاه موارد استخراج ميكند و در صورت دارا بودن مجوز (V=True) از مورد بازيابي شده براي تعيين حالت بعدي استفاده ميكند. 8 براي بازيابي موارد مشابه حالت فعلي از الگوريتم نزديكترين همسايه استفاده شده است. فاصله اقليدسي مورد جديد با هر يك از موارد موجود در داخل پايگاه موارد (CB) طبق رابطهي 4 محاسبه شده و مشابهترين مورد (c) بازيابي ميشود و در صورت دارا بودن مجوز (V=True) از راهحل مورد بازيابي شده براي حل مسي له جديد استفاده ميشود. (4) الگوريتم پيشنهادي در شكل 4 آمده است..,..,. 4- ارزيابي الگوريتم پيشنهادي براي ارزيابي كارايي الگوريتم CB-BHAQL از يك بازي Grd World مطابق شكل 3 با 30 حالت و دو عامل مستقل A و A 2 كه داراي هدفهاي جداگانهاي هستند استفاده شده است. هدف ما اين است كه نشان دهيم آيا الگوريتم 9 CB-BHAQL كه تلفيقي از CBR و QL است و در آن از تابع بهبوديافتهی جديدي براي انتخاب عمل استفاده شده است عملكرد بهتري نسبت به دو الگوريتم QL و CBR دارد به همين منظور الگوريتم CB-BHAQL را با دو الگوريتم ) الگوريتم 2) Q-Learnng الگوريتم Boltzmann-CBR كه شبه كد آن شبيه شكل 4 است و تنها تفاوت آن در رديف 5 از شكل 4 است كه براي انتخاب عمل به جاي استفاده از تابع بهبوديافتهي جديد (رابطهي 3) از توزيع G2 A Q استفاده كردهاند فرآيند يادگيري و سرعت آن فقط بستگي به رابطه يادگيري» G A2

59 س. اسفندياري ب. معصومي و م. ر. ميبدي: يك مدل تلفيقي مبتني بر يادگيري تقويتي و استدلال مبتني... (مقاله عادي) بولتزمن (رابطهي 2) استفاده شده است. شكل 4- شبه كد الگوريتم پيشنهادي CB-BHAQL در آزمايشهاي انجام گرفته فرض شده است كه 000 بار الگوريتمها اجرا شده و ميانگين نتايج براي الگوريتم ها به دست آمدهاند. پارامترهاي 0.05 و = 0.7 γ در نظر گرفته شدهاند. شكل 5 و 6 و 7 نتايج شبيهسازي را نشان ميدهد. آزمايش. مقايسه كارايي الگوريتم پيشنهادي با ساير الگوريتمها از نظر تعداد حركات لازم براي رسيدن به هدف. براي اين منظور تعداد حركات لازم براي همگرايي الگوريتم در مقايسه با الگوريتم هاي ديگر مورد آزمايش قرار مي گيرد. نمودار شكل 5 سه الگوريتم را از لحاظ تعداد حركات لازم براي همگرايي به سمت سياست بهينه مقايسه ميكند. هر چه تعداد حركات لازم براي رسيدن به سياست بهينه كمتر باشد الگوريتم كاراتري خواهيم داشت. با توجه به شكل 5 مشاهده ميشود كه الگوريتم يادگيري Q به تنهايي به بيشترين تعداد حركات براي همگرايي نيازمند است. حال اگر الگوريتم يادگيري Q را با تكنيك CBR تلفيق نماييم (الگوريتم (Boltzman CBR كه در آن از تابع بولتزمن (رابطهي 2) براي انتخاب عمل عاملها در هر مرحله استفاده شده است تعداد حركات لازم براي همگرايي كاهش پيدا كرده است و اين بدليل استفاده مجدد عاملها از دانش يادگرفته شده در مراحل قبل است. حال اگر در الگوريتم Boltzman CBR به جاي تابع بولتزمن از تابع پيشنهادي 3) (رابطهي استفاده كنيم (الگوريتم پيشنهادي (CB-BHAQL تعداد حركات لازم براي همگرايي به طرز چشمگيري كاهش مييابد و اين به دليل - تلفيق الگوريتم يادگيري Q با تكنيك CBR براي استفاده مجدد عاملها از تجربيات بدست آمده از محيط و 2- استفاده از تابع پيشنهادي براي انتخاب عمل عاملها در هر حالت است. زيرا در تابع پيشنهادي از هيچگونه پارامتر خارجي براي انتخاب عمل استفاده نشده است اين در حالي است كه در توزيع بولتزمن از پارامتر خارجي T شده است. استفاده از پارامتر خارجي و انتخاب مقدار نادست براي آن در اكثر مساي ل عملي مشكل است و در صورت انتخاب نادرست مقدار آن موجب عدم همگرايي الگوريتم يادگيري ميشود. علاوه بر آن در محيطهاي پويا و ناشناخته عملي كه به تعداد بيشتري انتخاب شده است و به تعداد بيشتري درستي يا نادرستي آن مورد آزمايش قرار گرفته است گزينه مناسبي براي انتخاب است. اين در حالي است كه نبايد شانس انتخاب اعمال ديگر را نيز از آنها گرفت و بايستي به طريقي بين آنها تعادل ايجاد كرد. از اينرو ماهيت تابع پيشنهادي ما (رابطهي 3) اين است كه احتمال انتخاب عملي كه داراي بيشترين سابقهي بروزرساني است بيشتر است و در عين حال شانس انتخاب اعمال ديگر نيز از دست نرفته است و هر عملي به نسبت تعداد بروز رسانياش و مفيد بودنش داراي شانس انتخاب جداگانهاي است. همهي اين عوامل موجب شده است كه الگوريتم پيشنهادي CB-BHAQL نسبت به الگوريتمهاي ديگر به تعداد حركات خيلي كمتري براي همگرايي نياز داشته باشند. شكل 5- مقايسه سه الگوريتم از لحاظ تعداد حركات لازم براي رسيدن به هدف در 000 بار اجراي الگوريتمها آزمايش 2. مقايسه كارايي الگوريتم پيشنهادي با ساير الگوريتمها از نظر ميانگين پاداش تجمعي بدست آمده در هر اپيزود. شكل 6 الگوريتمها را از لحاظ ميانگين پاداش تجمعي بدست آمده در هر اپيزود مقايسه ميكند. هر چه ميانگين پاداش تجمعي بدست آمده براي الگوريتمي بيشتر باشد الگوريتم كاراتري خواهيم داشت. بهتربن حالت زماني است كه هر دو عامل همزمان به حالت هدف رسيده و 200+ پاداش دريافت كنند. بر طبق شكل 6 الگوريتم يادگيري Q بدليل استفاده كردن از تابع بولتزمن براي انتخاب عمل و نيز عدم استفاده از تجربيات قبلي عاملها پاداش كمتري بدست آوره است اين در حالي است كه استفاده از تكنيك CBR به طرز چشمگيري موجب بهبود پاداشهاي تجمعي بدست آمده شده است و الگوريتم CB-BHAQL با تعداد حركات كمتر و بدست آوردن پاداش بيشتر به سمت يك راهحل بهينه همگرا ميشود و برتري الگوريتم پيشنهادي را نسبت به دو الگوريتم ديگر نشان ميدهد. شكل 6- مقايسه سه بار اجراي الگوريتمها Number of Movement 40 20 00 Average of Reward 80 60 40 20 0 60 40 20 00 Q Learnng Boltzmann CBR CB BHAQL 0 500 000 500 2000 Epsode 80 60 40 20 0 0 500 000 500 2000 Epsode الگوريتم از لحاظ ميانگين پاداشهاي بدست آمده در 000. Let t be the global tme, n be the number of agents, the dscount factor, CB = an empty case base for each Agent Set s s' S to the ntal state of the system. 2. Repeat 3. (a) Set S=S 4. (b) for all agent [... n ] do f CB = or add case_crteron(s) s true CB CB C wth c.prob=s and c.sol=empty_soluton () 5. for each j=sol(s).m do Compute Sol (s). E[j]. accordng to Eq(3) Set ndex x the Maxmum value of them. 6. Select elementary acton Sol ( s). E[ x ]. a. 7. Observe Successor state s ' S and reward R 8. for all agents [... n ] do a. Retreve nearest neghbor accordng to Eq (4) of state s. b. Set Learnng Rate Sol ( s). E[ x ]. n c. Set Sol ( s). E[ x ]. Q accordng to Eq(). d. Increment Sol ( s ). E [ x ]. n by one. e. Resort detrmentally the experence lst Q n Sol(s).E 9. end for 0. end for. Untl Stop_Crteron () becomes true. r.

فلا( 60 392 ( علوم و مهندسي كامپيوتر نشريه علمي پژوهشي انجمن كامپيوتر ايران مجلد شماره آزمايش 3. مقايسه كارايي الگوريتم پيشنهادي با ساير الگوريتمها از نظر ميانگين تعداد حركات انجام شده در 000 بار اجراي الگوريتمها. شكل 7 نتايج را نشان مي دهد. با توجه به شكل ديده ميشود كه عاملها هنگام استفاده از الگوريتم يادگيري Q به طور ميانگين به تعداد حركت بسيار زيادي براي همگرايي نياز دارند اين بدين دليل است كه در هر بار تكرار الگوريتم آموختههاي قبلي عاملها از محيط از بين ميرود و عامل مجبور است دانش خود از محيط را از ابتدا كسب كند اين در حالي است كه اگر آموختههاي قبلي عاملها از محيط در هربار تكرار الگوريتم در جايي ذخيره شود و از آن در تكرارهاي بعدي نيز استفاده شود (الگوريتم (CBR-Boltzmann ميانگين تعداد حركتهاي لازم براي همگرايي به طور بسيار چشمگيري كاهش پيدا ميكند و طبق شكل 7 در الگوريتم پيشنهادي CB-BHAQL عامل براي يادگيري سياست بهينه به تعداد حركات بسيار كمتري نسبت به دو الگوريتم قبلي نياز دارد. شكل 7- مقايسه سه الگوريتم از لحاظ ميانگين تعداد حركات انجام شده در 000 بار اجراي الگوريتمها - 5 بررسي رفتار الگوريتم و تحليل آن در اين بخش تحليلي براي نحوه عملكرد الگوريتم پيشنهادي اراي ه مي شود. كه در آن برتري تابع (S) π 2 (رابطهي 3) نسبت به تابع (S) π (رابطهي 2) به دو طريق - آزمايش و 2- تحليل رياضي اراي ه گرديده است. ميخواهيم نشان دهيم كه در روش پيشنهادي تابع j e Qj/τ π 2 (S) = e nq nj Qj نسبت به تابع / (Q/τ) π (S) = e / j e با سرعت بيشتري به سمت پاسخ بهينه همگرا ميشود. به عبارت ديگر آهنگ تغيير (S) π 2 نسبت به Q بيشتر از آهنگ تغيير (S) π است. -- 5 بررسي با استفاده از آزمايشهاي مختلف نسبت به Q براي نشان دادن برتري رفتار تابع انتخاب عمل پيشنهادي الگوريتم CB-BHAQL براي حالت بررسي قرار گرفته و نتايج زير بدست آمده است. نتيجهي S 0 و عمل a با توجه به مقادير مختلف n مورد : با توجه به نمودار شكلهاي 8 و 9 و 0 ميبينيم كه با افزايش n رشد (S) π 2 خيلي سريعتر از رشد (S) π است. نتيجهي 2: نمودار شكل 9 و 0 و نشان ميدهد كه با افزايش n مقدار تابع Q(S,a) در رابطهي افزايش مييابد. نتيجهي 3: نمودار شكل 2 نشان ميدهد كه با افزايش مقدار Q(S,a) مقدار (S) π رشد ميكند. با توجه به مطالب قبلي نتيجه ميشود كه بايستي با افزايش مقدار( S,a ) Q t تابع (S) π 2 سريعتر از تابع (S) π رشد كند. نمودار شكل 2 نتيجهي بدست آمده را تاييد ميكند. -2-5 تحليل رياضي (5) براي سادگي محاسبات توابع (S) π و (S) π 2 را به ترتيب به صورت رابطهي 5 و 6 بازنويسي ميكنيم. (6) آهنگ تغيير (S) π نسبت به Q با پارامتر = 0.05 τ در رابطهي 7 آمده است. Δπ S /ΔQ. 20. (7) آهنگ تغيير (S) π 2 نسبت به Q در رابطهي 8 آمده است. Δπ2 S/ΔQ dπ2 S /dn dn/dq Δπ2 S /ΔQ Qe nq dn/dq ( 8) با مقايسهي رابطهي 7 و 8 نتايج زير بدست ميآيد. تابع Δπ (S) /ΔQ همواره مثبت است. در رابطهي 6 بدليل مثبت بودن Q مقدار تابع Δπ (S) /ΔQ همواره مثبت است. و تابع Δπ 2 (S) /ΔQ همواره مثبت است. طبق رابطهي و نمودار شكل 9 با افزايش n مقدار (S,a) Q همواره افزايش مييابد. بنابراين Δπ 2 است. در نتيجه Q و > 0 n و از طرفي > 0 dn/dq > 0 ( S )همواره /ΔQ مثبت است. آهنگ رشد كمتر است. در رابطهي 6 Δπ 2 (S) /ΔQ نسبت به Δπ (S) /ΔQ e 20Q كه در رابطهي 7 nq e مييابد. بنابراين آهنگ رشد در مقدار ثابت 20 ضرب شده است اين در حالي است در متغير Q ضرب شده است. با افزايش n مقدار Q افزايش Δπ (S) /ΔQ نسبت به Δπ 2 (S) /ΔQ كمتر است. نمودار شكل 3 نيز نتيجهي بدست آمده را تاييد ميكند. 6- نتيجهگيري در اين مقاله مدل تلفيقي جديدي به نام CB-BHAQL براي حل بازيهاي ماركوفي بر اساس يادگيري تقويتي و سيستمهاي مبتني بر مورد كه در آن از تابع جديدي براي انتخاب عمل در هر حالت استفاده شده است اراي ه گرديد. نتايج بدست آمده با الگوريتمهاي موجود مقايسه شد. بر طبق نتايج بدست آمده الگوريتم CB-BHAQL در مقايسه با الگوريتمهاي Q-Learnngو Boltzmann CBR بدليل استفاده از تكنيك CBR و نيز تابع پيشنهادي جديد هم از لحاظ سرعت همگرايي به پاسخ بهينه و هم از لحاظ ميانگين پاداش تجمعي بدست آمده و نيز تعداد حركات لازم براي همگرايي به سمت سياست بهينه از كارايي بسيار خوبي برخوردار است. بهطور كلي اگر در الگوريتمهاي مبتني بر يادگيري تقويتي Q براي انتخاب عمل عاملها در هر حالت به جاي توزيع بولتزمن از تابع پيشنهادي جديد استفاده شود سرعت يادگيري الگوريتمهاي مبتني بر يادگيري Q بسيار افزايش خواهد Average of Number of Movement 350 300 250 200 50 00 50 0 0 500 000 500 2000 Epsode تابع (S) π افزايش مييابد. از آنجايي كه همواره = (S,a) lm t n t است طبق نتيجهي 2 مقدار (S,a) Q t افزايش مييابد و طبق نتيجهي با افزايش n تابع (S) π 2 سريعتر از

6 س. اسفندياري ب. معصومي و م. ر. ميبدي: يك مدل تلفيقي مبتني بر يادگيري تقويتي و استدلال مبتني... (مقاله عادي) يافت. با اينحال به نظر ميرسد كه تابع پيشنهادي جديد عمل خود را فقط بر اساس حالت فعلي عامل انتخاب ميكند و اگر بتوان اين تابع را طوري گسترش داد كه براي انتخاب عمل عاملها بجز حالت فعلي حالتهاي همسايهي حالت فعلي را هم در نظر بگيرد نتايج بهتري بدست ميآيد. شكل 2- بررسي رشد (S) π بر حسب مقادير مختلف Q(S,a) شكل -8 بررسي رشد (S) π 2 و (S) π بر حسب مقادير مختلف n شكل 3- بررسي رشد (S) π 2 و (S) π بر حسب مقادير مختلف Q(S,a) مراجع [] R. A. C. Branch, R. Raquel, and R. L. D. Mantaras, "Imrovng Renforcement Learnng by usng Case Based Heurstcs," Proc, Int l Conf. Case Based Learnng (ICCBR), pp. 75-89, 2009. شكل 9- بررسي رشد (S) π 2 بر حسب مقادير مختلف n [2] Y. Shoham, and K. Leyton-Brown, "Multagent Systems: Algorthmc, Game theoretc and Logcal Foundaton," Cambrdge Unversty Press, 2009. [3] C. Boutler, "Sequental optmalty and coordnaton n mult-agent systems," Proc, Int l Conf. Artfcal ntellgence, vol. 99, no., pp. 478-485, 999. [4] B. Masoum, and M. R. Meybod, "Learnng Automata based Mult-agent System Algorthms for Fndng Optmal Polces n Markov Games," Asan Journal of Control, vol. 4, no. 4, pp. -6, 202. شكل 0- بررسي رشد (S) π بر حسب مقادير مختلف n [5] J. Hu, and M. Wellman, "Nash Q-Learnng for General- Sum Stochastc Games," Journal of Machne Learnng Research, vol. 4, no. 2, pp. 039-069, 2003. [6] B. Masoum, M. R. Meybod, and F. Abtah, "Learnng Automata based Algorthms for Fndng Optmal Polces n Fully Cooperatve Markov Games," Proc, Conf. Przeglad Elektrotechnczny, pp. 280-289, 202. [7] M. Laur, and M. Redmller, "An Algorthm for Dstrbuted Renforcement Learnng n Cooperatve Multagent Systems," Proc, Int l Conf. Machne Learnng, pp. 535-542, 2000. شكل - بررسي رشد Q(S,a) بر حسب مقادير مختلف n

فلا( 62 392 ( علوم و مهندسي كامپيوتر نشريه علمي پژوهشي انجمن كامپيوتر ايران مجلد شماره [8] S. Kapetanaks, and D. Kudenko, "Renforcement Learnng of Coordnaton n Hetergenous Cooperatve Multagent Systems," Proc, IEEE Int l Conf. Autonomous Agents and Multagent Systems (AAMAS), pp. 258-259, 2004. [9] L. Matgnon, G. J. Lauent, and N. L. Front-Pat, "Hysteretc Q-Learnng: An Algorthm for Decentralzed Renforcement Learnng n Cooperatve Mult-agent Teams," Proc, IEEE Int l Conf. Intellgence Robots and Systems (IROS), pp. 64-69, 2007. [0] F. S. Melo, and M. I. Rbero, "Renforcement Learnng wth Functon Approxmaton for Cooperatve Navgaton Tasks," Proc, IEEE Int l Conf. Robotcs and AUtomaton, pp. 332-2237, 2008. [] M. Lauer, and M. Redmller, "Renforcement Learnng for Stochastc cooperatve Mult-agent Systems," Proc, IEEE Int l Conf. Autonomous Agents and Multagent Systems (AAMAS), pp. 54-55, 2004. [2] R. A. C. Banch, C. H. C. Rbero, and C. Costa, "Acceleratng autonomous learnng by usng heurstc selecton of actons," Journal of Heursts, vol. 2, no. 2, pp. 35-68, 2008. [3] R. A. C. Banch, C. H. C. Rbero, and C. Costa, "Heurstc selecton of actons n Multagent Renforcement Learnng," Proc, IEEE Int l Conf. Artfcl Intellgence, pp. 690-695, 2007....تصوير نويسنده لازم است... سارا اسفندياري در سال 385 مدرك كارشناسي مهندسي كامپيوتر- نرمافزار خود را از دانشگاه آزاد اسلامي تهران مركزي و در سال 389 مدرك كارشناسيارشد مهندسي كامپيوتر خود را از دانشگاه آزاد اسلامي واحد قزوين دريافت كرد. زمينههاي علمي مورد علاقه ايشان عبارتند از: سيستمهاي چند عامله يادگيري در سيستمهاي چند عامله داده كاوي و الگوريتمهاي موازي. آدرس پستالكترونيكي ايشان عبارت است از: sara.esfandar@gmal.com محم درض ا ميب دي تحصيلات خود را در مقاطع كارشناسي و كارشناسيارشد اقتصاد بهترتيب در سالهاي 352 و 356 از دانشگاه شهيد بهشتي و در مقاطع كارشناسيارشد و دكتري علوم كامپيوتر بهترتيب در سالهاي 359 و 362 از دانشگاه اوكلاهماي آمريكا به پايان رسانده است و هماكنون استاد دانشكده مهندسي كامپيوتر دانشگاه صنعتي اميركبير ميباشد. نامبرده قبل از پيوستنش به دانشگاه صنعتي اميركبير در سالهاي 362 الي 364 استاديار دانشگاه ميشيگان غربي و در سالهاي 364 الي 370 دانشيار دانشگاه اوهايو در ايالات متحده آمريكا بوده است. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: الگوريتمهاي موازي پردازش موازي محاسبات نرم و كاربردهاي آن شبكههاي كامپيوتري و مهندسي نرمافزار. آدرس پستالكترونيكي ايشان عبارت است از: اطلاعات بررسي مقاله: تاريخ ارسال:...????????????????... تاريخ اصلاح: 92/5/3 تاريخ قبول شدن: 92/2/26 mmeybod@aut.ac.r نويسنده مرتبط: دكتر بهروز معصومي دانشكده مهندسي كامپيوتر و فناوري اطلاعات دانشگاه آزاد اسلامي قزوين قزوين ايران. Case Base Reasonng 2 Multagent System 3 Mult Agent Markov Decson Process 4 Case Base _ Best Heurstcally Accelerated Q-Learnng 5 Markov Decson Process 6 Evaluaton Functon 7 Case Base 8 Nearest Neghbour 9 Q-Learnng بهروز معصومي در سال 374 م درك كارشناس ي مهندسي كامپيوتر- نرمافزار خود را از دانشگاه شهيد بهشتي تهران و در سال 377 مدرك كارشناسيارشد مهندسي كامپيوتر خود را از دانشگاه آزاد اسلامي واحد تهران جنوب دريافت كرد. ايشان در سال 389 موفق به اخذ درجه دكترا در مهندسي كامپيوتر- نرمافزار از دانشگاه آزاد اسلامي علوم و تحقيقات تهران گرديد. نامبرده از سال 377 تاكنون عضو هيات علمي دانشكده مهندسي كامپيوتر و فناوري اطلاعات دانشگاه آزاد اسلامي قزوين ميباشند. زمينههاي علمي مورد علاقه ايشان عبارتند از: سيستمهاي چند عامله يادگيري در سيستمهاي چند عامله طراحي سيستمهاي پايگاه داده و محاسبات نرم. آدرس پستالكترونيكي ايشان عبارت است از: masoum@qau.ac.r